Confusion Matrix(混淆矩陣)是一種用來判斷模型做得好不好的一種評估指標。一個模型的預測結果基本上可以分成四種—預測是True且實際是True、預測是True且實際是False、預測是False且實際是True、預測是False且實際是False。Confusion Matrix就是一種將上述4種情形整理好,用來進一步判斷模型的好壞。
-- | 『預測』為真 | 『預測』為非 |
---|---|---|
『實際』為真 | true positive(TP) | false negative(FN) |
『實際』為非 | false positive(FP) | true negative(TN) |
在使用Confusion Matrix獲得了TP、FP、FN以及TN過後,我們可以用這4種指標進一步計算Accuracy、Precision和Recall。
(一)Accuracy
Accuracy = (TP + TN) / N,N為總資料筆數
Accuracy的計算是預測正確所佔的百分比,因此也又叫做準確率。這是一種最經典用來判斷一個模型預測的好不好的方法,也是之前筆者一直用來展示的正確率。
(二)Precision
Precision = TP / (TP + FP)
Precision代表的是在預測結果為真的之中實際是真的比例。這種指標通常會用在比較重視我們預測為真的情形下,是否能夠真的是正確的。常用的領域像是在醫學相關預測,當一位病人被診斷出是真的(確診該疾病),我們會希望這是正確的結果,否則就可能導致用藥不當,對病人產生不可挽回的影響。
(三)Recall
Recall = TP / (TP + FN)
Recall看起來和Precision有些類似,只是它代表的是在實際情況下為真中,我們所預測正確的機率。常用的領域像是在醫學相關預測,當一項疾病被診斷出為真(罹患該疾病),我們會希望這項預測是盡可能準確的,甚至比整體模型的準確度(Accuracy)還重要。因為若是誤診的話可能會導致應該被檢查出的疾病沒被查出來,進而導致流行性感冒的傳播。